ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА по курсу «Data Science»

Слушатель Саморукова Юлия Дмитриевна

В ходе выполнения ВКР требуется сделать:

1) Изучить теоретические основы и методы решения поставленной задачи.

2) Провести разведочный анализ предложенных данных. Необходимо нарисовать гистограммы распределения каждой из переменной, диаграммы ящика с усами, попарные графики рассеяния точек. Необходимо также для каждой колонки получить среднее, медианное значение, провести анализ и исключение выбросов, проверить наличие пропусков.

3) Провести предобработку данных (удаление шумов, нормализация и т.д.).

4) Обучить нескольких моделей для прогноза модуля упругости при растяжении и прочности при растяжении. При построении модели необходимо 30% данных оставить на тестирование модели, на остальных происходит обучение моделей. При построении моделей провести поиск гиперпараметров модели с помощью поиска по сетке с перекрестной проверкой, количество блоков равно 10.

5) Написать нейронную сеть, которая будет рекомендовать соотношение матрица-наполнитель.

6)Разработать приложение с графическим интерфейсом или интерфейсом командной строки, которое будет выдавать прогноз, полученный в задании 4 или 5 (один или два прогноза, на выбор учащегося).

7)Оценить точность модели на тренировочном и тестовом датасете.

8) Создать репозиторий в GitHub / GitLab и разместить там код исследования. Оформить файл README.

1. Изучить теоретические основы и методы решения поставленной задачи

Предоставленная информация:

Композиционные материалы — это искусственно созданные материалы, состоящие из нескольких других с четкой границей между ними. Композиты обладают теми свойствами, которые не наблюдаются у компонентов по отдельности. При этом композиты являются монолитным материалом, т. е. компоненты материала неотделимы друг от друга без разрушения конструкции в целом. Яркий пример композита - железобетон. Бетон прекрасно сопротивляется сжатию, но плохо растяжению. Стальная арматура внутри бетона компенсирует его неспособность сопротивляться сжатию, формируя тем самым новые, уникальные свойства. Современные композиты изготавливаются из других материалов: полимеры, керамика, стеклянные и углеродные волокна, но данный принцип сохраняется. У такого подхода есть и недостаток: даже если мы знаем характеристики исходных компонентов, определить характеристики композита, состоящего из этих компонентов, достаточно проблематично. Для решения этой проблемы есть два пути: физические испытания образцов материалов, или прогнозирование характеристик. Суть прогнозирования заключается в симуляции представительного элемента объема композита, на основе данных о характеристиках входящих компонентов (связующего и армирующего компонента).

2. Провести разведочный анализ предложенных данных

Импорт библиотек

Производим загрузку данных с локального диска.

Объединяю таблицы с помощью Inner

Часть строк из таблицы X_nup была исключена, в датасете осталось 1023 строки с 13 признаками

Средние и медианные значения

Проверка пропусков и дубликатов

Тип данных с плав.запятой, строковых значений не имеет. Пропущенные значения отсуствуют.

Гистограммы распределения каждой из переменной

Диаграммы размаха (ящик с усами)

Попарные графики рассеяния точек

На графике рассеяния видны небольшие выбросы.

Матрица корреляции данных

3) Провести предобработку данных (удаление шумов, нормализация и т.д.)

Признаки с повторениями отсутствуют. Убираем выбивающиеся из распределения значения.

Нормализация

4) Обучение моделей для прогноза модуля упругости при растяжении и прочности при растяжении

Модель линейной регрессии для параметра прочность при растяжении

Тестовое значение R^2 принимает отрицательное число.

Вывод: отсутствие линейной взаимосвязи в модели

Метод K-ближайших соседей для параметра прочность при растяжении

Random forest для параметра прочность при растяжении

Результат на глубину в 10 слоев и 1500 итераций - значение коэффициента детерминации все также отрицательное.

Для параметра упругость

Модель линейной регрессии для параметра упругость при растяжении

Метод K-ближайших соседей для упругости при растяжении

Random forest для параметра упругость при растяжении

Поиск Гиперпараметров

Импортируем функции для поиска по сетке параметров с перекрестной проверкой

Сравнение ошибки базовой модели

Многослойный персептрон

5.Нейронная сеть, которая будет рекомендовать соотношение матрица-наполнитель

Нейронная сеть